贝叶斯变量选择方法是适合和推断稀疏高维线性回归模型的强大技术。但是,许多在计算密集型上或需要对模型参数进行限制性的先验分布。基于可能性的惩罚方法在计算方面更友好,但是推理需要资源密集型的改装技术。在本文中,我们提出了一种有效而强大的贝叶斯方法,用于稀疏高维线性回归。通过使用插件的经验贝叶斯估算超参数的估计值,需要对参数的最小化假设。有效的最大后验概率(MAP)估计是通过使用分区和扩展期望最大化(ECM)算法完成的。结果是应用于稀疏高维线性回归的经验贝叶斯ECM(探针)算法。我们提出了估计未来价值预测的可靠和预测间隔的方法。我们将预测的经验特性和我们的预测推断与可比方法进行了比较,并通过大量的模拟研究和对癌细胞系药物反应研究的分析进行了比较。提出的方法在R软件包探针中实现。
translated by 谷歌翻译
The unfolding of detector effects is crucial for the comparison of data to theory predictions. While traditional methods are limited to representing the data in a low number of dimensions, machine learning has enabled new unfolding techniques while retaining the full dimensionality. Generative networks like invertible neural networks~(INN) enable a probabilistic unfolding, which map individual events to their corresponding unfolded probability distribution. The accuracy of such methods is however limited by how well simulated training samples model the actual data that is unfolded. We introduce the iterative conditional INN~(IcINN) for unfolding that adjusts for deviations between simulated training samples and data. The IcINN unfolding is first validated on toy data and then applied to pseudo-data for the $pp \to Z \gamma \gamma$ process.
translated by 谷歌翻译
Pre-trained protein language models have demonstrated significant applicability in different protein engineering task. A general usage of these pre-trained transformer models latent representation is to use a mean pool across residue positions to reduce the feature dimensions to further downstream tasks such as predicting bio-physics properties or other functional behaviours. In this paper we provide a two-fold contribution to machine learning (ML) driven drug design. Firstly, we demonstrate the power of sparsity by promoting penalization of pre-trained transformer models to secure more robust and accurate melting temperature (Tm) prediction of single-chain variable fragments with a mean absolute error of 0.23C. Secondly, we demonstrate the power of framing our prediction problem in a probabilistic framework. Specifically, we advocate for the need of adopting probabilistic frameworks especially in the context of ML driven drug design.
translated by 谷歌翻译
如何将新兴和全面的技术(例如AI)整合到我们社会的结构和运营中是当代政治,科学和公众辩论的问题。它从不同学科中产生了大量的国际学术文献。本文分析了有关人工智能调节(AI)的学术辩论。该系统审查包括在2016年1月1日至2020年12月31日之间发表的73份同行评审期刊文章样本。分析集中于社会风险和危害,监管责任问题以及可能基于风险的政策框架在内和基于原则的方法。主要利益是拟议的监管方法和工具。提出了各种形式的干预措施,例如禁令,批准,标准设定和披露。对所包括论文的评估​​表明该领域的复杂性,这表明其早产和剩余的缺乏清晰度。通过对学术辩论进行结构性分析,我们在经验和概念上均可更好地理解AI和监管的联系以及基本规范性决策。科学建议与拟议的欧洲AI调节的比较说明了调节的特定方法,其优势和缺点。
translated by 谷歌翻译
每种算法选择旨在为给定的问题实例和给定的性能标准推荐一种或几种合适的算法,这些算法有望在特定设置中表现良好。选择是经典的离线完成的,使用有关问题实例或在专用功能提​​取步骤中从实例中提取的功能的公开可用信息。这忽略了算法在优化过程中积累的有价值的信息。在这项工作中,我们提出了一种替代性的在线算法选择方案,我们每次算法选择该方案。在我们的方法中,我们使用默认算法启动优化,在经过一定数量的迭代之后,从该初始优化器的观察到的轨迹中提取实例功能,以确定是否切换到另一个优化器。我们使用CMA-E作为默认求解器测试这种方法,以及六个不同优化器的投资组合作为可切换的潜在算法。与其他关于在线人均算法选择的最新工作相反,我们使用在第一个优化阶段累积的信息进行了第二个优化器。我们表明,我们的方法的表现优于静态算法选择。我们还基于探索性景观分析和分别对CMA-ES内部状态变量的探索性景观分析和时间序列分析进行比较。我们表明,这两种功能集的组合为我们的测试用例提供了最准确的建议,该建议是从可可平台的BBOB功能套件和Nevergrad平台的Yabbob Suite中获取的。
translated by 谷歌翻译
到目前为止,景观感知算法选择方法主要依靠景观特征提取作为预处理步骤,而与投资组合中优化算法的执行无关。这引入了许多实用应用的计算成本的重要开销,因为通过采样和评估手头的问题实例提取和计算功能,与优化算法在其搜索轨迹中所执行的功能类似。如Jankovic等人所建议的。 (EVOAPPS 2021),基于轨迹的算法选择可以通过从求解器在优化过程中对求解器进行采样和评估的点来计算景观特征来规避昂贵的特征提取问题。以这种方式计算的功能用于训练算法性能回归模型,然后在该模型上构建每运行算法选择器。在这项工作中,我们将基于轨迹的方法应用于五种算法的投资组合。我们研究了在固定的功能评估预算之后预测不同算法性能的情况下,性能回归和算法选择模型的质量和准确性。我们依靠使用相同功能评估的上述预算的一部分计算出的问题实例的景观特征。此外,我们考虑一次在求解器之间切换一次的可能性,这要求它们要热身启动,即当我们切换时,第二求解器继续使用第一个求解器收集的信息来继续适当地初始化优化过程。在这种新背景下,我们展示了基于轨迹的每算法选择的有前途的表现,并启动了温暖。
translated by 谷歌翻译
听力损失是人类的重大健康问题和心理负担。小鼠模型提供了阐明参与潜在发育和病理生理机制的基因的可能性。为此,大规模的鼠标表型计划包括单基因敲除小鼠线的听觉表型。使用听觉脑干响应(ABR)程序,德国鼠标诊所和全球类似设施已经产生了大型均匀的突变体和野生型小鼠的ABR原料数据。在标准ABR分析过程中,听力阈值通过训练有素的工作人员从增加声压水平的信号曲线进行视觉评估。这是令人耗时的,并且容易被读者偏向,以及图形显示质量和规模。为了减少工作量并提高质量和再现性,我们开发并比较了两种方法,用于从平均ABR原始数据中实现自动听力阈值识别:一个受监督方法,涉及在人生成的标签和自我监督方法上训练的两个组合神经网络,利用信号功率谱利用信号功率谱并将随机森林声级估计与转换曲线拟合算法结合起来进行阈值查找。我们表明,两种型号都很好地,胜过人类阈值检测,并且适用于快速,可靠和无偏见的听力阈值检测和质量控制。在高通量鼠标表型环境中,两种方法都以自动端到端筛选管道的一部分表现良好,以检测用于听力参与的候选基因。两种模型的代码以及用于此工作的数据都可以自由使用。
translated by 谷歌翻译
我们研究了一个多领导的单追随者拥塞游戏,多个用户(领导者)选择一个资源中的一个资源,并且在观察实现的负载后,对手(单追随器)攻击最大负载的资源,导致额外的资源领导者的成本。对于领导者之间产生的战略游戏,我们表明纯净的纳什均衡可能无法存在,因此,我们考虑了近似均衡。作为我们的第一主要结果,我们展示了$ k $的存在,可以始终保证$ k $的均衡,其中$ k \约1.1974 $是立方多项式方程的独特解决方案。为此,我们提供了一种多项式时间组合算法,其计算$ k $的均衡。因子$ k $很紧,这意味着有一个实例不承认任何$ \ alpha <k $的$ \ alpha $。因此,$ \ alpha = k $是$ \ alpha $的最小可能值,使得可以保证$ \ alpha $-ruckimate均衡的存在,以查找考虑游戏的任何实例。其次,我们专注于给定固定实例的近似均衡。我们展示了如何有效地计算最佳近似平衡,即在给定实例的所有$ \ alpha $中具有最小的$ \ alpha $。
translated by 谷歌翻译
在数字治疗干预的背景下,例如互联网交付的认知行为治疗(ICBT)用于治疗抑郁和焦虑,广泛的研究表明,人类支持者或教练的参与如何协助接受治疗的人,改善用户参与治疗并导致更有效的健康结果而不是不受支持的干预措施。该研究旨在最大限度地提高这一人类支持的影响和结果,研究了通过AI和机器学习领域(ML)领域的最新进展提供的新机遇如何有助于有效地支持ICBT支持者的工作实践。本文报告了采访研究的详细调查结果,与15个ICBT支持者加深了解其现有的工作实践和信息需求,旨在有意义地向抑郁和焦虑治疗的背景下提供有用,可实现的ML申请。分析贡献(1)一组六个主题,总结了ICBT支持者在为其精神卫生客户提供有效,个性化反馈方面的策略和挑战;并回应这些学习,(2)对于ML方法如何帮助支持和解决挑战和信息需求,为每个主题提供具体机会。它依赖于在支持者LED客户审查实践中引入新的机器生成的数据见解的潜在社会,情感和务实含义的思考。
translated by 谷歌翻译
生成网络正在LHC的快速事件生成中打开新的途径。我们展示了生成的流量网络如何达到运动分布的百分比精度,如何与鉴别器共同培训,以及该鉴别者如何提高生成。我们的联合培训依赖于两种网络的新耦合,这些网络不需要纳什均衡。然后,我们通过贝叶斯网络设置和通过条件数据增强来估计生成的不确定性,而鉴别者确保与培训数据相比没有系统不一致。
translated by 谷歌翻译